Description Dropout으로 local model fine-tuning

핵심 아이디어

현재 연구들은 광범위한 foundation model을 만드는 데 집중하지만, 특정 domain에서만 작동하는 작은 모델을 만들 때는 다른 접근이 유효하다.

도구(tool)를 명시적으로 정의한 뒤, self-supervised 방식으로 description을 점진적으로 제거하면서 학습시키면 → 작은 local model도 특정 업무에서 충분한 성능을 낼 수 있다.

기존 dropout이 특정 뉴런에 의존하지 않도록 강제하듯, description dropout은 모델이 tool description 텍스트에 의존하지 않도록 강제한다.

모델은 결국 함수 이름과 context의 의미론적 관계를 학습하게 된다.

[easy]   도구 이름 + 상세 description + 예시
[medium] 도구 이름 + 짧은 description
[hard]   도구 이름만
[harder] 도구 이름도 없이 context만

이는 curriculum learning과 결합될 때 더 효과적이다.

foundation model → general해야 함 → overfitting 위험 특정 domain 전용 모델 → 해당 domain에서의 overfitting = reliability 상승

Obsidian vault 관리 + 수업 정보 수집 두 가지만 잘하면 되는 경우, 그 domain에 과적합된 모델이 오히려 더 예측 가능하고 안전하다.

함수 이름 자체가 의미를 담고 있어야 description dropout이 의미있다.

semantic이 이름에 녹아있을수록 description 없이도 학습이 된다.